RuPersonaChat: корпус диалогов для персонификации разговорных агентов
Аннотация:
Введение. Одним из способов повышения качества разговорных агентов является персонификация. Персонификация улучшает качество взаимодействия пользователя с разговорным агентом и повышает удовлетворенность пользователей за счет повышения консистентности и специфичности ответов. Диалог с агентом становится более последовательным, минимизируется противоречивость ответов, которые оказываются более конкретными и интересными. Для обучения и тестирования персонифицированных разговорных агентов требуются специфичные наборы данных, содержащие факты о персоне и тексты диалогов персон, в репликах которых используются факты о персонах. Существует несколько наборов на английском и китайском языках, содержащие в описании персоны в среднем пять фактов. Диалоги в наборах данных составлены пользователями краудсорсинга, которые многократно имитировали различные персоны. Метод. В данной работе предложена методика сбора оригинального корпуса данных, содержащего расширенный набор фактов о персоне и естественные диалоги между персонами. Новый корпус данных RuPersonaChat основан на трех различных сценариях записи: интервью, короткая беседа, длинная беседа. Впервые собран корпус данных для персонификации разговорных агентов, включающий естественные диалоги и расширенное описание персоны. Предложена дополнительная разметка набора данных, которая ставит в соответствие реплики персоны и факты о персоне, на основе которых она была сформулирована. Основные результаты. Разработана методика сбора оригинального корпуса тестовых данных, позволяющего осуществлять тестирование языковых моделей для решения большего количества задач в рамках разработки персонифицированного разговорного агента. Собранный набор данных включает 139 диалогов и 2608 реплик. Корпус использован для тестирования моделей генерации ответов и вопросов. Наилучшие результаты получены с использованием модели Gpt3-large (перплексия равна 15,7). Обсуждение. Собранный корпус данных RuPersonaChat может быть использован для тестирования персонифицированных разговорных агентов на возможность рассказать о себе собеседнику, ведения диалога с собеседником и использования фактической речи, учета длинного контекста при ведении диалога с пользователем.
Ключевые слова:
Постоянный URL
Статьи в номере
- Методика выбора параметров оптико-электронных систем контроля износа рабочих лопаток паровых турбин по заданной величине суммарной погрешности
- Моделирование и анализ фрактального преобразования искаженных снимков земной поверхности, получаемых оптико-электронными системами наблюдения
- Способ быстрой разметки сверхбольших данных аэросъемки
- Задача адаптивного субоптимального управления и ее вариационное решение
- Управление по выходу для класса нелинейных систем на основе динамической линеаризации
- Оптимизированный метод глубокого обучения для прогнозирования дефектов программного обеспечения с использованием алгоритма оптимизации кита
- Гарантированное обнаружение структурных аномалий в потоковых данных с использованием модели RRCF: выбор параметров обнаружителя и его стабилизация в условиях аддитивных шумов
- ViSL One-shot: генерация набора данных вьетнамского языка жестов
- Оценка вероятностно-временных характеристик компьютерной системы с контейнерной виртуализацией
- Новый метод противодействия состязательным атакам уклонения на информационные системы, основанные на искусственном интеллекте
- О свойствах М-оценок, оптимизирующих весовую L2-норму функции влияния
- Устойчивость высокоупругой прямоугольной пластинки с защемленно-свободными краями при одноосном сжатии
- Модели и методика моделирования деформаций в САПР ANSYS для систем железнодорожных вагонных весов
- Применение метода решеточных уравнений Больцмана для решения задач динамики вязкой несжимаемой жидкости
- От конструирования вейвлетов на основе производных функции Гаусса к синтезу фильтров с конечной импульсной характеристикой
- Метод разбиения единицы и гладкая аппроксимация
- Цензурирование обучающих выборок с использованием регуляризации отношений связанности объектов классов
- Подход к разработке программных продуктов в стартапе
- Моделирование восприятия рекомендаций системы поддержки принятия врачебных решений на основе предсказательного моделирования при проведении профилактических осмотров врачами-стоматологами